Loading...
机构名称:
¥ 1.0

图像生成模型的前几代,包括变异自动编码器[23]和生成广泛的网络[21],利用砂质层的潜在空间来确定编辑方向[15,21,42]。扩散模型[17,43]基于马尔可夫链的变形过程,并且本质上缺乏单个潜在空间。此外,噪声预测主链要么是差异变压器(DIT)[31]或U-NET [38],因此两种构造都缺乏明确选择潜在空间。在U-NET主干的背景下 - 本文的重点 - 训练 - 自由编辑的方法,以编辑重点在交换不同的模块上,包括自我和交叉注意模块和H空间,U-NET的Bot-tleneck。然而,u-net中的一个必需元素,有助于长期依赖的传输和梯度传播,是跳过的连接。与现有工作相反,我们专注于前者及其在基于U-NET的扩散模型中的作用。在本文的其余部分中,我们解决以下问题:(i)在U-NET的跳过连接中表示信息以及何处?(ii)它如何影响图像产生?(iii)在DeNoising过程中何时出现此信息?1

arxiv:2501.14524v1 [cs.cv] 2025年1月24日

arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第1页

arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第2页

arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第3页

arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第4页

arxiv:2501.14524v1 [cs.cv] 2025年1月24日PDF文件第5页

相关文件推荐